首页
下载应用
提交文章
关于我们
🔥 热搜 🔥
1
上海
2
习近平
3
新疆
4
鄂州父女瓜
5
乌鲁木齐
6
疫情
7
H工口小学生赛高
8
习明泽
9
芊川一笑图包
10
印尼排华
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
上海
2
习近平
3
新疆
4
鄂州父女瓜
5
乌鲁木齐
6
疫情
7
H工口小学生赛高
8
习明泽
9
芊川一笑图包
10
印尼排华
分类
社会
娱乐
国际
人权
科技
经济
其它
常德悲剧:让谴责无差别杀戮之声更加响亮一点
魏加宁:日本之所以能走出“大衰退”,靠的是不断改革,而不是所谓“积极的财政政策”
泪目!8死17伤!江苏一职校持刀伤人案,背后隐情令人心惊!
突发!宜兴一学校发生持刀伤人案件!致8死17伤!太恶劣了!
一小学门口突发!多名学生被撞伤!
生成图片,分享到微信朋友圈
查看原文
其他
OpenAI炸裂升级!又一个行业被干掉了
Original
万连山
格隆
2024-02-27
作者 | 万连山
数据支持 | 勾股大数据(www.gogudata.com)
假期轻松愉快,没太关注时事。
没想到一觉醒来,朋友圈突然被一则新闻刷屏:OpenAI发布文生视频模型Sora 。
好家伙,瞬间给我拉回工作氛围。
人们一直期待GPT-5,但Sora带来的轰动不亚于GPT-5的发布。
之前大家还在关注,谷歌推出的Gemini能否杀死GPT4,全世界各大科技巨头能否在这波AI浪潮中弯道超车。
现在,显然没人关注了。
因为OpenAI自己可能要用它先杀死GPT-4了。
我上官网(https://openai.com/sora)看了演示视频,无论从视频流畅度还是细节表现能力上,Sora的效果都相当惊艳。
难怪有人说:现实,不存在了。
比如官推里这条14秒的东京雪景:
美丽的,被雪覆盖的东京正繁忙着。镜头穿过繁忙的城市街道,跟随着几个享受雪景和在附近摊位购物的人。美丽的樱花瓣随风飘落,与雪花一同飞舞。
尽管我们能感觉到,还有那么一些不自然。但当素材用,已经足矣。
又比如下面这张对法令纹和痘印的刻画,只要不去吹毛求疵,确实已经足够真实。
说句不该说的,这张图,至少看起来比坐在美颜前面的女主播们真实……
网友们也第n+1次纷纷哀悼起相关赛道的公司们:
“OpenAI就是不能停止杀死创业公司。”
“天哪,现在起我们要弄清什么是真的,什么是假的。”
“我的工作没了。”
“整个影像素材行业被血洗,安息吧。”
……
01 现实与虚拟的界限
其实,文字生成视频这回事,早就不新鲜了。
2023年8月,RunwayGen2正式推出,AI生成式视频正式进入大众视野。
到今年初,不计其数的产品一个接一个,PIKA、Pixverse、SVD、Genmo、Moonvalley……等等等等。
太多了,也太卷了。
我们能明显感觉到,最近小半年刷的短视频里,多了很多不自然的视频。稍微品一品,就能察觉这肯定不是人工剪辑的。
首先,没有超过4s的连贯镜头;其次,很不自然。
这些实用的工具,基本都是小公司出品的,功能并不完善。
说不完善都还算保守了,简直就是漏洞百出。
视频内容归根结底,是对现实世界的还原。既然如此,那其中必然包含大量交互镜头——物与物、人与人、人与物,等等。
就像用摄像机拍出来的片段一样。
我们看电影、看视频,看的也是交互,相信没几个人喜欢看一个人的独白。
比如,玻璃杯从桌子上摔到地上,它应该碎掉;像皮球摔到地上,它应该弹两下。
但让AI去合成这类场景,你就会发现,它并不会还原以上的物理现象。物体与物体碰撞或叠加到一起,AI只会让其中一方变形。
这说明了一个关键问题:
过去的AI并不理解现实世界的规律。
不符合人类常识的视频,能有多大市场呢?
不理解基础物理的AI,它的上限能有多高?
想要解决这个问题,难不难?很难。
现在的AI大模型,虽然是模拟的人脑,但毕竟有所区别。
最本质的区别在于:
AI 没有想象力。
比如,你一巴掌扇在我脸上,面部肌肉如何颤动?把一颗鱼雷扔进池塘,水面如何散开?
我们可以想象到后续会发生的事情,AI 不能。
无论它的参数堆得多高、计算速度再快,都不能。
即便是目前的Sora也做不到。
从各种演示例子中可以看到,虽然Sora 对自然语言有着深入的理解,能够准确洞悉提示词,生成表达丰富的内容,甚至可以创建多个镜头、保持角色和视觉风格的一致性。
但是,它依然无法准确模拟出复杂场景的物理现象,因为它不理解因果关系。
比如,人咬了一口饼干,但饼干上没有咬痕;又或者混淆左右、不遵循特定的摄像轨迹;甚至无法理解,影子是人的影子还是物的影子……
如此一来的结果,便是合成有违物理常识的视频。
既然如此,Sora到底牛在哪里,为什么这么多人追捧它?
因为它其实做得足够好了,至少比同行们好太多了。
用Fortune杂志的话来说就是:
将生成式AI之战转移到了好莱坞。
用官网的话来说,它能够生成包含多种角色和特定类型的运动,主体和背景细节准确;还能理解事物在物理世界的存在方式。
简单来说,它虽然还不能理解需要想象力的因果律,但最基本的现实场景,它是可以还原的。
AI生成视频这一条赛道,诞生至今还不到1年,我们确实不能要求太高。
如果把上文描述的内容当做终结目标,把去年至今的一系列生成工具作为雏形,Sora大概处在两者之间。
它是如何做到的?
02 谁站在巨人肩上?
Sora主要采用了两种技术。
一个是扩散模型(diffusion model),原本是用于文字转图片的。
简单来讲,是先生成一张全是noise(噪声)的图片,与目标图片的vector尺寸相同(比如目标图片是256*256,初始sample图片也要是256*256),然后经过若干次denoise(去噪声),让图片逐步成型。
问题在于,大模型怎么知道去除什么?保留什么?
当然需要训练。
研究人员得先用清晰的图片,一步一步加噪声进去,如下图。
这是上图的逆序,即反向扩散。
看懂了上面两个步骤,你才能理解MIT Technology Review究竟在说啥:
Sora的团队使用了DALL-E 3背后的技术,即扩散模型。扩散模型经过训练后可以将模糊的随机像素变成图片。
其原理并不复杂,但需要时间和人力成本。
另一项技术是Transformer的神经网络,就是GPT(Generative Pre-Trained Transformer)中的T。
但是,Transformer 架构人尽皆知,在文字、图像生成上已经成为主流,为什么别人没想着在视频生成上用,就OpenAI 用了呢?
用技术的话来说:
Transformer 架构中,全注意力机制的内存需求会随着输入序列长度而二次方增长。
说人话就是:
计算成本太高了。
即便OpenAI背靠微软,各种融资拿到手软,也不愿意这样烧钱。
所以他们开发了一个视频压缩网络,先把视频数据降维到latent(潜空间),再将压缩过的数据生成 Patche,这样就能使输入的信息变少,有效减小计算量压力。
然后,为了让大模型更好理解用户的意思,OpenAI 直接把文生视频模型套进已经得到市场认可的GPT模型范式中,这就是它独有的优势了。
使用者输入的提示词,并非直接交给Sora,而是先让成熟的GPT将文本进行精准详细的扩写。
Sora再根据GPT提供的详细文本,逐帧生成更准确的视频。
说实话,个人认为,这才是Sora有别于其他模型的最大优势。
其他团队即便能解决其他步骤,但没有成熟的大模型,也是白搭。
整体上看,Sora的成功几乎是水到渠成的。
它能有如今惊艳的表现,基本全部得益于OpenAI过去的成果,有些是借用了思路,有些则是不可或缺的基本架构。
这就是所谓的先发优势了,它不仅仅体现在老生常谈的垄断问题上面。
一生二、二生三、三才生万物。
反观OpenAI此时此刻全世界的各大竞争对手,无一例外全部卡在文生文、文生图上。
更有甚者,连一都没有的,还是老老实实抓紧做底层。不然等先发者三生万物了,真的是什么都晚了。
我们能明显感觉到,AI比过去任何行业的迭代都要快。
也许,这个技术差只要维持两年,就会变成永远无法逾越的鸿沟。
所谓“差距只有几个月”、“弯道超车”,基本是不存在的。
03 尾声
正如上文所说,Sora目前仍有很大缺陷。
它能生成复杂、精美且足够长的视频,这证明AI在理解现实世界的能力上有相当大的提升。
但这种提升,依然基于大量的训练,而不是AI本身对世界的理解。Sora对视频的处理依旧是有很多局限性,甚至包括很基本的事实错误。
所以Sora给人的感觉虽然震撼,但还称不上这两天热烈讨论的“世界模型”。
所谓“现实不存在了”,绝对不是指现在。
但未来说不准。
在我们普通人眼中,Sora就是个文生视频模型。它的出现,意味着大多数影视、视频制作从业人员,即将失业。
但对OpenAI团队而言,并不仅此而已——这必然是他们构建AGI(通用人工智能)的重要环节。
AGI与世界的交互不仅体现在文字、图片和语音等形式上,还有更直接的视觉视频,这也是人类自古以来认知和理解世界最重要的方式。
所以生成视频、理解视频和理解物理世界,是未来AGI必备能力之一。
此时此刻,我们还能想象得到,生成式AI会对影视、游戏制作行业造成天翻地覆的影响。
等到通用人工智能问世的那一刻,AI到底能做什么、会对世界造成多大的影响?
所有人都能想象到的,是必然会应用到具身智能,也就是机器人上。
但除此之外呢?抱歉,想象力有限,真的想象不出来。
或许,AI真的就是全人类期待了几十年的那个技术奇点。你知道某些事情会发生,但无法想象究竟是什么事。(如果能想象,那也就不叫奇点了)
只能祈祷,未来是星辰大海,商机遍地。
(全文完)
▍格隆汇·2024·《真实中国人的真实年》&《我的归乡记》合辑
继续滑动看下一个
OpenAI炸裂升级!又一个行业被干掉了
Original
万连山
格隆
轻触阅读原文
格隆
Like
Share
Wow
Comment
向上滑动看下一个
您可能也对以下帖子感兴趣
{{{title}}}
文章有问题?点此查看未经处理的缓存